室内场景识别是一种不断增长的领域,具有巨大的行为理解,机器人本地化和老年人监测等。在这项研究中,我们使用从社交媒体收集的多模态学习和视频数据来从新的角度来看场景识别的任务。社交媒体视频的可访问性和各种可以为现代场景识别技术和应用提供现实数据。我们提出了一种基于转录语音的融合到文本和视觉功能的模型,用于在名为Instaindoor的室内场景的社交媒体视频的新型数据集上进行分类。我们的模型可实现高达70%的精度和0.7 F1分数。此外,我们通过在室内场景的YouTube-8M子集上基准测试,我们突出了我们的方法的潜力,在那里它达到了74%的精度和0.74f1分数。我们希望这项工作的贡献铺平了在挑战领域的室内场景认可领域的新型研究。
translated by 谷歌翻译